A Survey on Federated Learning in Human Sensing
❏ 書誌情報/著者
タイトル: A Survey on Federated Learning in Human Sensing
著者: Mohan Li, Martin Gjoreski, Pietro Barbiero, Gašper Slapničar, Mitja Luštrek, Nicholas D. Lane, Marc Langheinrich
出典: ACM, 2025年1月公開
❏ 論文の核心
Human Sensingにおける Federated Learning (FL) の応用に関する包括的なサーベイで、その現状、課題、分類、および今後の研究方向を提示
❏ 主張と革新性
Human SensingにおけるMLのプライバシーと倫理的懸念を、生データを共有しないFLが緩和できると主張
この分野に特化した体系的レビューにより、FLの現実世界適用における課題解決度合いを評価する8次元評価フレームワークと応用指向の分類を提案
❏ 既存研究との違い
既存のFLサーベイが主にIoTや医療(IoMT)、推薦システムに焦点を当てるのに対し、本サーベイはHuman Sensingに特化
Human Sensing特有のシステム異質性や統計的異質性、限られたラベルデータといった課題へのFLの対応状況を掘り下げて分析
❏ 技術・手法のポイント
Federated Learning: クライアントがローカルデータを使いモデルを学習し、そのモデルパラメータのみをサーバーで集約する分散学習手法
FLの課題を評価するための8次元: プライバシーとセキュリティ、通信コスト、システム異質性、統計的異質性、ラベルなしデータ使用、Simplified Setup(望ましくない設定)、サーバー最適化、クライアント最適化
レビュー手法としてPRISMAを採用し、関連研究を系統的に収集・分析
❏ どう検証しているか
FLがHuman Sensingの現実世界タスクにどの程度適用できるかを問うため、主要なデジタルライブラリや会議録から論文を系統的に検索
収集した211件の論文を、提案した6つの応用ドメインと8次元評価フレームワークに基づいて分類し、分析
各ドメインにおけるFLの特性(プライバシー、異質性など)への研究の注力度合いを評価・可視化
❏ 議論・今後の課題・著者自身の限界認識
FLがプライバシーを強化する一方で、勾配からの情報漏洩や各種攻撃(推論攻撃、ポイズニング攻撃)に対する脆弱性が未解決
システム異質性(多様なデバイス能力や接続性)への対応が最も遅れており、現実世界での普及に向けた大きな課題
クライアントが大量のラベルなしデータを持つ現実シナリオでのラベルなしデータ効果的活用手法の研究が必要
サーバー(全体性能)とクライアント(個別性能・公平性)双方の目標をどうバランスさせるかが課題
多くの研究が簡略化された設定で行われており、現実世界の複雑さを反映した実験が求められる
❏ 応用例/示唆
人間行動・状態の理解: 人間の活動、生理心理状態、環境相互作用を監視し、生活の質を向上させる高度なサービス開発基盤となる
プライバシー保護: ウェアラブルデバイスなどから得られる詳細で機密性の高い個人データを使用するMLモデルのプライバシー懸念を軽減
ウェルビーイング:
ウェアラブルセンサーを用いた日常の健康モニタリング(感情、ストレス、認知負荷、身体健康)を、個人のプライバシーを守りつつ実現
うつ病検出や運転ストレス検出、睡眠品質予測など、個別最適化された健康支援サービスへの適用
ユーザーサービス:
ユーザー識別(人物再識別、話者識別、顔認識)において、セキュリティを向上させつつ、ユーザーデータのプライバシーを保護
人間移動・位置特定(屋内測位、屋外移動パターン)における機密性の高い地理空間データのプライバシー保護
Human Activity Recognition (HAR) において、ウェアラブルやビデオデータを用いた活動分類をプライバシーに配慮して実施
Driver Activity Recognition (DAR) において、車両センサーデータ(ビデオ、生理信号など)を用いた運転行動監視(眠気、注意散漫など)のプライバシー保護
インターフェース開発(キーボード予測、VR体験向上)におけるユーザー嗜好分析をプライバシーを守りながら行う
医療・ヘルスケア:
病院間で患者の機密データを共有できない制約がある中でも、FLにより共同でモデルを学習し、診断や治療支援(例: 腫瘍セグメンテーション、電子カルテ管理)に活用
カメラや生体センサーを用いる労働者の認知負荷モニタリングなど、プライバシー侵害リスクの高い用途でのデータ利用を可能にし、生産性や満足度向上に貢献
データ駆動研究全般: プライバシー懸念がボトルネックとなっている様々なデータ駆動研究分野に、FLを拡張することで、より広範な協調学習を促進
❏ この論文をどう自分に生かせるか/自分なりのコメント・気づき
裏取り前
システム異質性は気にしたことがなかった
そこまで問題になるのか?
今回は関係なさそう
システムのために特定の機材ばかり選択する予定のため
スマホを使う場合などは気掛かりかも
他の事例がすぐに思いつかない...
ラベルなしの情報が大量に入るとして
事前学習済みモデルで音響イベント検知してラベル付けすればいいのでは
現実的な実験設定が少ないなどとあるが
どこまでやれば良いのだろう
認知負荷計測などが気になる
確かにそういったプライバシーな情報の多いタスクにも使えそう
睡眠の質やパフォーマンスなどの推定が面白そう
運転行動監視は他のタスクにも使えそう
気になる点
211本論文を読んでどう比較しているか
HARの全体像
信頼できるノードのみのネットワークでプライバシーなどの心配はあるか?
施設内で完結するなら良いのでは
最終的には施設ごとのモデルも集約しそう
拡張するなら考慮した方が良さそう
今はいいのでは
どちらかというと,IoTデバイスに悪さをされた場合を考える?
通信を傍聴されるとかは一旦脇に置く
デバイスに悪さされないようなネットワークを敷けばいいのでは
本体をいじられるリスクが残っている
そこまでされたらどうしようもないのでは
そもそも,あるクライアントがろくな成果を上げない場合が考えられる
その対策が他の問題の対策も兼ねる気がする
クライアント選択戦略の確立と言えるか?
裏取り後
妙なパラメータのクライアントは弾く必要がありそう
期待されるようなモデルを構築するため
データの極端な偏りを統合しない
クライアントの乗っ取りなどによるリスクを低減する
所感
いろんな論文をまとめてあって,探すのに良さそうだった
HumanSensingにおいて,HAR以外にも多様な分野があることがわかった
HARが一番多いらしい
AmbientSensingとどちらが僕に適した分野かは不明
あちらは環境的なセンサから何らかの分析を行うとか
HARとやることが共通している
実世界での応用に向けて,現実的なシナリオでの実験が必要そうだと思った
シミュレーションでもいいが,かなり細かく決めていくと良さそう
あるいは実際に動かしてみるとか
気になったのはラベルなし学習での課題だが,特に詳細な解説などはなかった気がする
各論文に委ねる形だったか?
HARに関するFLの論文は多数あったが,HAR自体の話はなかった
他を読めということらしい
次に何を読む?
うーん
ラベルなしとか,何個か試したいな
ラベルの偏りに対処する学習法を採用したい
一応ラベルありで学習させる予定だが,多分偏る
事前学習済みモデルを配布
緊急事態は発生しないから緊急事態
それでも,一般的なイベントばかり発生するため,だんだん検知が難しくなっていくような気がする
知識蒸留で解決できるか?
そういった,拡張系の方法が良いのかも
緊急時の音響イベント検知はそういう風にするか?
事前に学習したモデルでラベル付けをして学習しても偏る気がする
オープンデータを持っておくのもありか?
どのタイミングで異常を検知するかが問題になりそう
ラベルなし学習とか,そういった方法なら,事前学習済みモデルを使って問題なく予測ができるのか?
調べる必要がある
やはりラベルの偏りに対処する学習法を調べるのがよさそう
統計的異質性関連かな
表で統計的異質性とラベルなしに対処している論文を探す
Non-IIDとラベルのないデータを使った学習に対処している論文
手を動かしてやること
基本のモデルを作成,実装
異常イベント含め検知できるモデルを作ろう
何を考える?
モデルの構造
用いるデータ
追試
275,77を追試
かなぁ?
裏取り中のメモ
統計的異質性
メタ学習やクラスタリングなどの対処法
個々のクライアントに最適化したモデルが存在する手法があるらしい
パーソナライズの話かな
音関連の研究
Audio Recognitionとか
ごく少数のラベルつきデータで学習
擬似ラベルをつけて活用?
Audio Recognition以外も,課題解決の参考になりそう
事前学習で収束を早めたらしい
table2のStatHeteroのついた論文は参考になりそう
Unlabeled Data Usageのついたのも良さげか
SER,音声感情認識も面白そう
アテンションを使っている
ラベルなしや何か混ざるのに対応できるみたい?
ユーザ識別
空間-時間相関を強調したというところ
ドメイン汎化
データ関連の対策を採用
パーソナライズド・フェデレーション・アグリゲーション
グローバル・スペクトル・クラスター法
部分的統合モメンタム(PFM)
グローバル勾配統計量をローカル学習に組み込む
クライアントドリフトに対処
統合検証(FV)アルゴリズム
オーバーフィッティングに対応
直交クラス埋め込みの傾向を観察
ソフトマックス正則化
ローカル最適化とクロスクライアント最適化
人のモビリティとローカライゼーション
移動の推定と位置特定?
読み飛ばす
課題
クライアントの新規参加や上限のない参加は考えていなかった
code: 10.3-良くわからない場所
However, centralized methods for learning without full labels face novel challenges when integrated into FL
frameworks. Firstly, labeling is an inherent privacy-sensitive procedure, and sharing knowledge in the labels
among clients risks individuals’ private information. Secondly, traditional methods that use both labeled and
unlabeled data on the server cannot be directly transferred to FL, where the data are isolated. Lastly, the potential
utility of unlabeled data remains ambiguous. Researchers need to determine the optimal balance between the
extent of data required and the potential for performance enhancement.
サーバとクライアントの要件
特にクライアント
貢献の少ないクライアントにもモデルを配布しないといけないとかそういう話?
クライアント戦略として,異常値を弾く場合
平均的に優れたモデルを作ることになるが,そうするとユニークなクライアントの参加する意義がなくなり撤退する恐れがある
現実的な設定の元実験を行うことが重要
堅牢な提案かどうかを確認しよう
確認する要素の例, 多分
計算コスト
データの多様性
エネルギー
通信コスト,帯域
システム自体が期待するように動くか確認したい
他
FLの成功事例
医療系
140
20
71とか応用するのいいんじゃない?と著者らがいっている
以下のように書いたがどうだろう
具体的に何を把握したい?
HARの解決する課題
対象外
FLがHARにどのように貢献するか
プライバシーの観点で安全に
主な手法やデータセット
対象外
現状の課題
Non-IIDの対応
異なるデバイスへの対応
現実的なシナリオでの実験
今後の展望
もっと進むでしょう的なことが書いてあったかな?